【ECCV】Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning
Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning
分享人:王国权
研究方向:行为识别
论文题目:Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning
论文作者:Yuxiao Chen, Long Zhao, Jianbo Yuan, Yu Tian, Zhaoyang Xia, Shijie Geng, Ligong Han, and Dimitris N. Metaxas
作者单位:罗格斯大学、谷歌、字节跳动
论文摘要:尽管完全监督的人类骨骼序列建模取得了成功,但利用自我监督的预训练进行骨骼序列表示学习一直是一个活跃的领域,因为大规模获取任务特定的骨骼注释是困难的。最近的研究侧重于使用对比学习来学习视频级别的时间和辨别信息,但忽略了人类骨架的层次时空性质。与视频级别的这种表面监督不同,我们提出了一种自监督的分层预训练方案,该方案结合到基于分层Transformer的骨架序列编码器(Hi-TRS)中,以分别在帧、剪辑和视频级别显式捕获空间、短期和长期时间依赖性。为了使用Hi-TRS评估所提出的自我监督预训练方案,我们进行了广泛的实验,包括三个基于骨骼的下游任务,包括动作识别、动作检测和运动预测。在监督和半监督评估协议下,我们的方法达到了最先进的性能。此外,我们证明了我们的模型在预训练阶段学习的先验知识对于不同的下游任务具有很强的转移能力。
原文链接: